home *** CD-ROM | disk | FTP | other *** search
/ Collection of Tools & Utilities / Collection of Tools and Utilities.iso / tex / edct9401.zip / edict.doc < prev    next >
Text File  |  1994-01-27  |  19KB  |  409 lines

  1. E D I C T 
  2. =========
  3.  
  4. Copyright (C) 1994 James William Breen 
  5.  
  6. Public Domain Japanese/English Dictionary file, coordinated by Jim Breen. 
  7.  
  8. CURRENT VERSION 
  9. ---------------
  10.  
  11. The version date and sequence number is included  in  the  dictionary  itself 
  12. under  the  entry  "EDICT".  (Actually it is under the JIS-ASCII code "????". 
  13. This keeps it as the first entry when it is sorted.) 
  14.  
  15. The  master  copy   of   EDICT   is   in   the   pub/nihongo   directory   of 
  16. monu6.cc.monash.edu.au.  There  are other copies around,  but they may not be 
  17. as up-to-date. The easy way to check if the version you have is the latest is 
  18. from the size/date. 
  19.  
  20. INTRODUCTION
  21. ------------
  22.  
  23. EDICT is the outcome of a  voluntary  project  to  produce  a  public  domain 
  24. Japanese/English  Dictionary  in  machine-readable  form.   It  was  intended 
  25. initially for use with MOKE (Mark's Own Kanji Editor)  and  related  software 
  26. such as JDIC and JREADER, however it has come to be used in a large number of 
  27. packages.  
  28.  
  29. The EDICT file, which has been placed in the Public Domain, is copyright, and 
  30. is distributed in accordance with the EDICT  Licence  Statement  included  at 
  31. Appendix A. 
  32.  
  33. FORMAT
  34. ------
  35.  
  36. EDICT's format is that of the original "EDICT" format used by MOKE.  It  uses 
  37. EUC  coding for kana and kanji,  however this can be converted to JIS or SJIS 
  38. by any of the several conversion programs around.  It is a text file with one 
  39. entry per line.  The format of entries is: 
  40.  
  41. KANJI [KANA] /english_1/english_2/.../
  42.  
  43.      or
  44.  
  45. KANA /english_1/.../
  46.  
  47. The English translations are deliberately brief,  as the application  of  the 
  48. dictionary is expected to be primarily on-line look-ups, etc. 
  49.  
  50. CONTENTS
  51. --------
  52.  
  53. EDICT consists of: 
  54.  
  55. (a) the basic EDICT distributed with MOKE 2.0.  This was compiled  by  MOKE's 
  56. author,  Mark  Edwards,  with  assistance  from Spencer Green.  Mark has very 
  57. kindly released this material to the public domain.  A number of  corrections 
  58. were   made   to   the   MOKE  original,   e.g.   spelling  mistakes,   minor 
  59. mistranslations,  etc.  It also had a lot of duplications,  which  have  been 
  60. removed.  It  contained  about  1900  unique  entries.  Mark Edwards has also 
  61. kindly given permission for the vocabulary  files  developed  for  KG  (Kanji 
  62. Guess) to be added to EDICT. 
  63.  
  64. (b) additions by Jim Breen.  I laboriously keyed in a ~2000 entry  dictionary 
  65. used  in  my  first  year nihongo course at Swinburne Institute of Technology 
  66. years ago (I was given permission by the authors to do this).  I then  worked 
  67. through  other  vocabulary  lists  trying to make sure major entries were not 
  68. omitted.  The English-to-kana entries in the SKK files were added also.  This 
  69. task is continuing, although it has slowed down, and I suspect I will run out 
  70. of energy eventually.  Apart from  that,  I  have  made  a  large  number  of 
  71. additions  during normal reading of Japanese text and fj.* news using JREADER 
  72. and XJDIC. 
  73.  
  74. (c)  additions  by  others.   Many  people  have  contributed   entries   and 
  75. corrections  to  EDICT.  I am forever on the lookout for sources of material, 
  76. provided it is genuinely available  for  use  in  the  Public  Domain.  I  am 
  77. grateful  to  Theresa  Martin who an early supplier a lot of useful material, 
  78. plus very perceptive corrections.  Hidekazu Tozaki has also been a great help 
  79. with tidying up a lot of awry entries,  and helping me identify obscure kanji 
  80. compounds.  Kurt  Stueber has been an assiduous keyer of many useful entries.  
  81. A large group of contributions came from  Sony,  where  Rik  Smoody  had  put 
  82. together   a   large   online   dictionary.   Another  batch  came  from  the 
  83. Japanese-German JDDICT file in similar format that Helmut  Goldenstein  keyed 
  84. (with  permission)  from the Langenscheidt edited by Hadamitzky.  Harold Rowe 
  85. was great help with much of the translation.  A full list of contributors  is 
  86. at the back of this file. 
  87.  
  88. At  this stage EDICT is of a comparable size to a good commercial dictionary, 
  89. which typically has 20,000+  non-name  entries  with  examples,  etc.  It  is 
  90. certainly bigger than some of the smaller printed dictionaries, and when used 
  91. in  conjunction  with  a  search-and-display  program  like  JDIC or XJDIC it 
  92. provides a highly effective on-line dictionary service. 
  93.  
  94. COPYRIGHT
  95. ---------
  96.  
  97. Dictionary  copyright  is  a  difficult  point,  because  clearly  the  first 
  98. lexicographer who published "inu means  dog"  could  not  claim  a  copyright 
  99. violation  over  all  subsequent Japanese dictionaries.  While it is usual to 
  100. consult other  dictionaries  for  "accurate  lexicographic  information",  as 
  101. Nelson put it,  wholesale copying is, of course, not permissable.  What makes 
  102. each dictionary unique (and copyrightable) is  the  particular  selection  of 
  103. words, the phrasing of the meanings, the presentation of the contents (a very 
  104. important  point  in  the  case of EDICT),  and the means of publication.  Of 
  105. course,  the fact that for the most part the kanji and kana of each entry are 
  106. coming  from  public  sources,  and  the  structure and layout of the entries 
  107. themselves are quite unlike those in any published dictionary,  adds a degree 
  108. of protection to EDICT. 
  109.  
  110. The advice I have received from people who know about these  things  is  that 
  111. EDICT  is just as much a new dictionary as any others on the market.  Readers 
  112. may see an entry which looks familiar, and say "Aha!  That comes from the XYZ 
  113. Jiten!".  They may be right,  and they may be wrong.  After all there  aren't 
  114. too  many  translations of neko.  Let me make one thing quite clear.  NONE of 
  115. this dictionary came from commercial machine-readable dictionaries.  I have a 
  116. case of RSI in my right elbow to prove it. 
  117.  
  118. Please do not contribute entries to  EDICT  which  have  come  directly  from 
  119. copyrightable  sources.   It  is  hard  to  check  these,   and  you  may  be 
  120. jeopardizing EDICT's PD status. 
  121.  
  122. LEXICOGRAPHICAL DETAILS
  123. -----------------------
  124.  
  125. EDICT is actually a Japanese->English dictionary,  although the words  within 
  126. it can be selected in either language using appropriate software.  (JDIC uses 
  127. it to provide both E->J and J->E functionality.) 
  128.  
  129. The early stages of EDICT had size limitations due to its usage  (MOKE  scans 
  130. it sequentially and JDXGEN, which is JDIC's index generator, held it in RAM.) 
  131. This  meant  that  examples of usage could not be included,  and inclusion of 
  132. phrases  was  very  limited.   JDIC/JDXGEN  can  now  handle  a  much  larger 
  133. dictionary, but the compact format has continued. 
  134.  
  135. No inflections of verbs or adjectives have been included, except in idiomatic 
  136. expressions.  Similarly  particles  are handled as separate entries.  Adverbs 
  137. formed from adjectives (-ku or ni) are generally not included.  Verbs are, of 
  138. course, are in the plain or "dictionary" form. 
  139.  
  140. In working on EDICT,  bearing in mind I want to use it in MOKE and with JDIC, 
  141. I  have  had  to  come  up with a solution to the problem of adjectival nouns 
  142. [keiyoudoushi] (e.g.  kirei and kantan), nouns which can be used adjectivally 
  143. with  the  particle "no" and verbs formed by adding suru (e.g.  benkyousuru).  
  144. If I put entries in edict with the "na" and "suru" included,  MOKE  will  not 
  145. find a match when they are omitted or,  the case of suru,  inflected.  What I 
  146. have decided to do is to put the basic  noun  into  the  dictionary  and  add 
  147. "(vs)"  where  it  can be used to form a verb with suru,  "(a-no)" for common 
  148. "no" usage, and "(an)" if it is an adjectival noun. Entries appear as: 
  149.  
  150. KANJI [benkyou] /study (vs)/ 
  151. KANJI [kantan] /simple (an)/ 
  152.  
  153. Where necessary,  verbs are marked with "(vi)" or "(vt)" according to whether 
  154. they  are intransitive or transitive.  (Work on this aspect is continuing.) I 
  155. have also used (id) to mark idiomatic expressions,  (col) for colloquialisms, 
  156. (pol) for teineigo, etc. 
  157.  
  158. The (current) full list of such entry markers is:
  159.  
  160.         an       adjectival nouns or quasi-adjectives (keiyodoshi)
  161.         a-no     nouns which may take the genitive case particle "no"
  162.         vs       noun or participle which takes the aux. verb suru
  163.         vt       transitive verb
  164.         vi       intransitive